人类利用先验知识来描述图像,并能够使其解释适应特定的上下文信息,即使在上下文信息和图像不匹配时,也可以在发明合理的解释的范围内。在这项工作中,我们提出了通过整合上下文知识来字幕Wikipedia图像的新颖任务。具体而言,我们制作的模型共同推理了Wikipedia文章,Wikimedia图像及其相关描述以产生上下文化的标题。特别是,可以使用类似的Wikimedia图像来说明不同的文章,并且所产生的标题需要适应特定的上下文,因此使我们能够探索模型的限制以调整标题为不同的上下文信息。该领域中的一个特殊挑战性的任务是处理量不多的单词和命名实体。为了解决这个问题,我们提出了一个预训练目标,掩盖了命名实体建模(MNEM),并表明与基线模型相比,此借口任务可以改善。此外,我们验证了Wikipedia中使用MNEM目标预先训练的模型可以很好地推广到新闻字幕数据集。此外,我们根据字幕任务的难度定义了两种不同的测试拆分。我们提供有关每种方式的作用和重要性的见解,并突出我们模型的局限性。接受时,代码,模型和数据拆分可公开可用。
translated by 谷歌翻译
在本文中,我们介绍了一个多语言场景文本视觉问题的框架,以零拍的方式处理新语言。具体来说,我们考虑场景文本视觉质量回答(STVQA)的任务,其中可以用不同的语言提出问题,并且不一定与场景文本语言保持一致。因此,我们首先引入了自然的步骤,朝着更广泛的版本的STVQA:MUST-VQA介绍。考虑到这一点,我们讨论了在受约束设置的两个评估方案,即IID和零照片,我们证明这些模型可以在零拍设置的标准杆上执行。我们进一步提供了广泛的实验,并显示了将多语言模型调整为STVQA任务的有效性。
translated by 谷歌翻译
在本文中,我们提出了一个文本降低不变的自动编码器(Text-Diae),这是一种旨在解决两个任务的自我监督模型,即文本识别(手写或场景文本)和文档图像增强。我们首先采用基于变压器的体系结构,该体系结构将三个借口任务作为学习目标,在预训练期间必须在不使用标签数据的情况下进行优化。每个借口目标都是专门针对最终下游任务量身定制的。我们进行了几项消融实验,以确认所选借口任务的设计选择。重要的是,所提出的模型并未基于对比损失表现出先前最新方法的局限性,而同时需要更少的数据样本来收敛。最后,我们证明我们的方法超过了手写和场景文本识别和文档图像增强的现有监督和自我监督的设置中的最新设置。我们的代码和训练有素的模型将在〜\ url {http:// on_accepters}上公开提供。
translated by 谷歌翻译
用缺失或不存在对象的解释图像被称为图像标题中的对象偏压(幻觉)。这种行为在最先进的标题模型中是非常常见的,这是人类不可取的。为了减少标题的对象幻觉,我们提出了三种简单但有效的训练增强方法,用于句子不需要新的培训数据或模型大小的增加。通过广泛的分析,我们表明该方法可以大大减少模型对幻觉指标的对象偏差。此外,我们通过实验证明我们的方法降低了对视觉特征的依赖性。我们所有的代码,配置文件和模型权重都将公开。
translated by 谷歌翻译
We present a Machine Learning (ML) study case to illustrate the challenges of clinical translation for a real-time AI-empowered echocardiography system with data of ICU patients in LMICs. Such ML case study includes data preparation, curation and labelling from 2D Ultrasound videos of 31 ICU patients in LMICs and model selection, validation and deployment of three thinner neural networks to classify apical four-chamber view. Results of the ML heuristics showed the promising implementation, validation and application of thinner networks to classify 4CV with limited datasets. We conclude this work mentioning the need for (a) datasets to improve diversity of demographics, diseases, and (b) the need of further investigations of thinner models to be run and implemented in low-cost hardware to be clinically translated in the ICU in LMICs. The code and other resources to reproduce this work are available at https://github.com/vital-ultrasound/ai-assisted-echocardiography-for-low-resource-countries.
translated by 谷歌翻译
This short report reviews the current state of the research and methodology on theoretical and practical aspects of Artificial Neural Networks (ANN). It was prepared to gather state-of-the-art knowledge needed to construct complex, hypercomplex and fuzzy neural networks. The report reflects the individual interests of the authors and, by now means, cannot be treated as a comprehensive review of the ANN discipline. Considering the fast development of this field, it is currently impossible to do a detailed review of a considerable number of pages. The report is an outcome of the Project 'The Strategic Research Partnership for the mathematical aspects of complex, hypercomplex and fuzzy neural networks' meeting at the University of Warmia and Mazury in Olsztyn, Poland, organized in September 2022.
translated by 谷歌翻译
We present edBB-Demo, a demonstrator of an AI-powered research platform for student monitoring in remote education. The edBB platform aims to study the challenges associated to user recognition and behavior understanding in digital platforms. This platform has been developed for data collection, acquiring signals from a variety of sensors including keyboard, mouse, webcam, microphone, smartwatch, and an Electroencephalography band. The information captured from the sensors during the student sessions is modelled in a multimodal learning framework. The demonstrator includes: i) Biometric user authentication in an unsupervised environment; ii) Human action recognition based on remote video analysis; iii) Heart rate estimation from webcam video; and iv) Attention level estimation from facial expression analysis.
translated by 谷歌翻译
培训低级的深层神经网络,即使用分解层,特别是社区感兴趣的:它在记忆消耗和训练时间方面提供了对未分离培训的效率。先前的工作集中在预训练的网络的低级近似值和低级空间中的培训中,并提供了其他目标,为所选实践提供了各种临时解释。我们分析了在实践中运作良好的技术,并通过对诸如GPT2之类的模型进行广泛的消融,我们提供了证据表明该领域的共同信念,这暗示着令人兴奋的研究机会仍然需要回答。
translated by 谷歌翻译
对AI的道德影响和值得信赖系统的设计的研究需要分析使用AI系统的方案,这与“用例”的软件工程概念和“预期目的”法律术语有关。但是,没有用于涵盖使用,范围,功能要求和AI系统风险的用例文档的标准方法。在这项工作中,我们为AI用例提出了一种新颖的文档方法,特别关注情感计算领域。我们的方法基于对研究文献中记录的用例信息需求的评估以及最近提议的AI欧洲监管框架。通过此评估,我们采用并调整了统一的建模语言(UML),在过去的二十年中,这主要由软件工程师使用。然后,每个用例都由UML图和一个结构化表表示,我们提供了一组示例,说明了其在几种情感计算方案中的应用。
translated by 谷歌翻译
由于用户不是最终的内容消费者,因此在内容市场中提供有意义的建议是具有挑战性的。取而代之的是,大多数用户是创意者的兴趣,与他们从事的项目相关,迅速而突然地改变。为了解决向内容创建者推荐图像的具有挑战性的任务,我们设计了一个recsys,以学习视觉样式的偏好,横向用户工作的项目的语义。我们分析了任务的挑战与语义驱动的基于内容的建议,提出评估设置并解释其在全球图像市场中的应用。该技术报告是ACM Recsys '22介绍的论文“学习用户在图像市场中的首选视觉样式”的扩展。
translated by 谷歌翻译